0%

(CVPR 2016) Deep region and multi-label learning for facial action unit detection

Posted on 2018-01-17 In Paper Note , Basic Tasks Views:

Keyword [Facial Action Units]

Zhao K, Chu W S, Zhang H. Deep region and multi-label learning for facial action unit detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 3391-3399.

1. Overview

在人脸AU检测中，存在两种常见的任务

Region Learning (RL)
Multi-label Learning (ML)
论文将两者进行结合，提出能够同时解决上述两个任务的框架Deep Region and Multi-label Learning (DRML)。

框架中包含一个region laryer结构。 region layer可通过两种方式设计

locally connected layers (LCN). 每个像素点对应一个卷积核（参数量较大）
conventional convolution layers. 首先将输入特征图分成n*m个region, 每个region内的像素点共享卷积核权重（即每个region通过一个卷积层）

DRML框架特点

end to end训练
non-linear模型
论文在BP4D和DISFA数据集上进行实验，对比F1-score和AUC评价指标。

1.1. Region Learning

通过传统方法识别特定的区域来提高检测性能（类似于Attention）。例如patch-based方法，首先将图像划分为patch，然后将patch分类为普通patch和特定patch来描述不同的表情
patch-based 缺点. easily fail on faces with modest or large pose （某些patch中部分相关，但被排除在外，没有用于识别，从而导致性能降低）

1.2. Multi-label Learning

传统的AU检测方法（AdaBoost、SVM等）都是对某个AU进行检测
ML对于每个表情，同时预测多个AU。能够在一定程度上解决正负样本不平衡的问题

1.3. 评价指标

F1-score. precision和recall的调和均值，常用于AU检测
AUC. 量化true positive和false positive之间的关系

2. DRML结构

大多数表情分析都使用很小的人脸图像（如4848）作为输入，为了避免人脸微小细节的丢失，论文使用**170170**大小的图像作为输入。

2.1. Loss Function

2.2. Region Layer

人脸图像相对于自然图像更加结构化，不同的人脸区域具有不同的局部统计。因此，可使用LCN（参数太多）或者区域卷积进行处理
可看做是对每个区域进行Attention操作

结构包含三部分

patch clipping （论文采用8*8 grid）
local convolution
identity addition (避免梯度消失；如果patch与AU检测无关，it would be easier to directly forward the patch than learning a filter bank to reduce the patch’s effect)

2.3. Region可视化

使用saliency map（通过计算每个像素点对于某个特定AU的梯度级数）进行可视化。

2.4. 与相关工作的比较

DRML受JPML启发，但存在不同之处

JPML通过对数据集统计，定义AU关系
JPML使用manually-crafted feature (SIFT)
JPML轮流学习PL和ML
JPML线性

3. Experiments

200200图像random crop为170170，并进行horizontally mirrored。

DRML收敛更快，训练loss更低，更接近gt统计
DRML比LCN速度快；ConvNet（去掉Region Layer的DRML）比AlexNet速度慢（由于卷积核为11*11）

3.1. BP4D&DISFA实验结果

learned features are of lower dimension, more than 40% of learned features for AlexNet, LCN, and DRML, are zeros
Multi-label训练提高了效果
当训练数据很少时，multi-label学习能够减少imbalance的影响